期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 知识图谱增强的科普文本分类模型
唐望径, 许斌, 仝美涵, 韩美奂, 王黎明, 钟琦
《计算机应用》唯一官方网站    2022, 42 (4): 1072-1078.   DOI: 10.11772/j.issn.1001-9081.2021071278
摘要759)   HTML50)    PDF (1056KB)(338)    收藏

科普文本分类是将科普文章按照科普分类体系进行划分的任务。针对科普文章篇幅超过千字,模型难以聚焦关键信息,造成传统模型分类性能不佳的问题,提出一种结合知识图谱进行两级筛选的科普长文本分类模型,来减少主题无关信息的干扰,提升模型的分类性能。首先,采用四步法构建科普领域的知识图谱;然后,将该知识图谱作为距离监督器,并通过训练句子过滤器来过滤掉无关信息;最后,使用注意力机制对过滤后的句子集做进一步的信息筛选,并实现基于注意力的主题分类模型。在所构建的科普文本分类数据集(PSCD)上的实验结果表明,基于领域知识图谱的知识增强的文本分类算法模型具有更高的F1-Score,相较于TextCNN模型和BERT模型,在F1-Score上分别提升了2.88个百分点和1.88个百分点,验证了知识图谱对于长文本信息筛选的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价